线性回归的妙处:t检验与方差分析
一般线性回归可以探究数值变量间的关系和预测未知数据;除此之外,线性回归模型还可以通过设计矩阵(designed matrix),可以实现t检验(t-test)和方差分析(ANOVA)。
1. 一般线性模型知识点回顾
Step 1: 通过最小二乘法构建简单线性模型或多重线性模型。参考最小二乘法与线性回归。 Step 2: 计算模型的R2,估计模型解释预测变量变异的百分比(R2取值范围为[0-1],R2越大,说明模型越有效)。参考线性回归中的R方与R方显著性。 Step 3: 计算模型的p值,判断随机产生该模型的可能性(p值越小,说明随机产生该模型的概率越小,越有理由认为该模型有显著性。通常情况下,p<0.05,我们有足够理由认为该模型具有显著性)。参考线性回归中的R方与R方显著性。
2. 线性回归实现t检验
t检验(t-test)的目的:检验两组数据所代表的总体均值是否显著不等,如control组与mutant组。
如果可用一个相同的方法计算t-test和线性回归的p值,那么便可在更加复杂的情形下计算p值。
第一步:不考虑x轴数据,计算两组数据的总体均值。
第二步:计算y轴数据围绕均值直线的残差平方和,记作SS(mean)。
因为残差的概念相对比较重要,故再次明确:如图中蓝色竖直虚线所示,残差指的是实际测量值与预测值的差异。其中预测值可以基于均值直线(最简单的拟合直线)或拟合直线得出。
第三步:考虑x轴数据,对数据拟合一条最优直线。 在左图中,可利用最小二乘法拟合一条直线。在右图中,仍利用最小二乘法,分别对对照组(control)和突变组(mutant)拟合最佳拟合直线,得到两条均值直线y=2.2 和 y=3.6。如何将右侧的分组数据汇总成一个直线方程呢?这就需要巧妙的设计矩阵(design matrix)。
将t检验中的两条均值直线合并成一个方程。这是一个关键步骤,可用计算机完成,该步骤使得计算回归和t-test中的F值方法相同(继而得出p值的方法也相同)。 在合并的方程中,1和0充当两组数据的开关。
对照组的数据:对照组的数据乘1,突变组的数据乘0,然后加上各自的残差,可计算出对照组中的数据;
突变组的数据:对照组的数据乘0,突变组的数据乘1,然后加上各自的残差,可计算出突变组中的数据。
如果将上式中的开关(1和0)取出,将其组成一个矩阵,该矩阵被称为设计矩阵(design matrix)。 设计矩阵与等式的抽象形式组合,实现对两组数据的合并。设计矩阵的第一列代表对照组均值的开(1)或关(0),第二列代表突变组均值的开(1)或关(0)。
在实际操作中,设计矩阵的第一列(column1)和第二列(column2)被默认,故上述特殊的拟合可简写成如下方程的形式:
基于对照组、突变组的“拟合方程”和设计矩阵,便可以同直线回归一样,计算F值和p值。
第四步:计算围绕拟合直线的残差平方和SS(fit),蓝色虚线是各数据的残差。
在简单线性回归中,不考虑x轴的均值直线仅有一个参数,即截距,故pmean=1;拟合直线有两个参数,即截距和斜率,故pfit=2。 在t-test中,不考虑x轴的均值直线仅有一个参数,即截距,故pmean=1;拟合直线有两个参数,即meancontrol和meanmutant,故pfit=2。
最后我们将一般线性回归实现t检验的过程再次进行简单总结。简单概括如下:
首先是基于原始数据拟合不考虑分组的均值直线,计算基于均值直线的残差平方和SSmean(因为均值直线只有一个参数,故pmean=1);
然后基于分组的情况,分别对各组进行均值直线拟合,结合设计矩阵将多条直线方程合并成一个统一的方程,并计算基于拟合直线的残差平方和SSfit(因为拟合直线有两个参数,故pfit=2)。
最后,将数据代入F值计算公式,即可求出p值,也就是t检验的p值。
3. 线性回归实现方差分析
方差分析(ANOVA)的目的是检验3组及3组以上数据的总体均值是否相等。假设有5个组的试验数据,探究5个组基因的表达量是否是一致的。
第二步:基于分组的情况,分别对各组进行均值直线拟合,得到5条直线的方程。
第四步:然后根据F值的计算公式,计算F值和p值。最后可根据p值的大小得出5组数据是否相同的结论。
4. 标准设计矩阵
在前面展示的矩阵为非标准设计矩阵(左侧),而右侧展示的矩阵为标准设计矩阵。虽然两种矩阵都可以达到相同的目的,但右侧的标准矩阵更加常见。在接下来一小节,我们将深入学习标准矩阵。
参考视频:
https://www.youtube.com/watch?v=NF5_btOaCig&t=426s
编辑:吕琼
校审:罗鹏